预训练学习视觉与语言导航自监督学习泛化能力

预训练学习的通用代理用于视觉与语言导航任务

ing an internship at MSR1PRE-TRAINED VISION-AND-LANGUAGE BASED NAVIGATOR1131370通过预训练学习视觉与语言导航的通用代理0郝伟拓 1 †‡ ，李春源 2 †� ，李修军 2 ，Lawrence Carin 1 ，高建峰 ...

用于视觉语言导航的自监督三维语义表示学习

标签：学习人工智能大数据

在视觉语言导航任务中，embodied agent遵循语言指令并导航到指定目标位置。它在许多实际场景中都很重要，并引起了计算机视觉和机器人领域的广泛关注。然而，现有的大多数工作仅使用RGB图像，而忽略了场景的三维语义...

视觉语言导航的自监督辅助推理任务

标签：自监督辅助推理任务视觉语言导航环境语义信息辅助任务优化泛化能力提升

10012具有自监督辅助推理任务的视觉语言导航朱凤达1朱毅2常晓军1梁晓丹3、41莫纳什大学2中国科学院大学3中山大学4暗物质人工智能公司[email protected]@[email protected]摘要...

大规模域内视觉和语言导航多样性数据集的预训练模型

标签：视觉语言导航大规模数据集预训练模型自然语言指令智能体导航

1634Airbert：用于视觉和语言导航Pierre-Louis Guhur1，Makarand Tapaswi2，Shizhe Chen1，Ivan Laptev1，CordeliaSchmid11Inria，E´colenormalesue´ rieure，CNRS，PSLResearchUniv ersity，巴黎，法国2印度...

Prevalent：视觉语言导航预训练模型

标签：深度学习计算机视觉神经网络

作者针对视觉语言导航(Vision-and-LanguageNavigation，VLN)任务，提出了遵循预训练和微调范式的VLN模型Prevalent。作者在大量图像-文本-动作三元组数据集上对模型进行了自监督预训练，使其能够提供视觉环境和语言...

基于模型和无模型混合的强化学习用于视觉和语言导航任务

标签：无模型和基于模型视觉和语言导航强化学习真实世界环境前瞻模块

三思而后行：桥接无模型和基于模型强化学习用于规划的视觉和语言导航XinWang，WenhanXiong，Hongmin Wang，William Yang Wang加州大学圣巴巴拉{xwang，xwhan，hongminwang，william}@ cs.ucsb.edu抽象。现有关于...

视觉语言导航的交叉模态接地和泛化问题研究

标签：视觉语言导航交叉模态接地不适定反馈泛化问题强化跨模态匹配

6629用于视觉语言导航的王欣1黄秋媛2 阿斯利·切利基尔马兹2高剑峰2沈定汉3王元芳1王扬1张磊21加州大学圣巴巴拉分校2微软研究院雷德蒙德分校3杜克大学{xwang，yfwang，william}@ cs.ucsb.edu{qihua，aslicel，jfgao...

机器学习：监督学习、无监督学习、半监督学习、强化学习

标签：机器学习人工智能监督学习

机器学习是一种人工智能领域的技术，它旨在...机器学习分为监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-supervised Learning）、强化学习（Reinforcement Learning）四种

反事实视觉与语言学习

标签：反事实视觉学习视觉问题回答方法结构因果模型

110044反事实视觉与语言学习Ehsan Abbasnejad，Damien Teney，Amin Parvaneh，Javen Shi，Anton van den Hengel{ehsan.abbasnejad，damien.teney，amin.parvaneh，javen.shi，anton.vandenhengel}@adelaide.edu.au...

基于视觉和语言辅助的导航通过间接干预进行模仿学习

标签：室内环境间接干预模仿学习 VNLA任务成功率提高

1125270基于视觉和语言辅助的导航通过间接干预进行模仿学习0Khanh Nguyen 马里兰大学，[email protected] Dey, Chris Brockett, BillDolan 微软研究院，Redmond0{dedey,Chris....

Mitchell Wortsman1, Kiana Ehsani2, Mohammad Rastegari1, Ali Farhadi1,2, Roozbeh Mottaghi11 PRIOR @ Allen Institute for AI, 2 University of WashingtonIn this paper, we study the problem of learning to ...

现实世界视觉对话导航中的自激励通信代理

标签：文件自激励通信代理视觉对话导航预定义位置提问强化学习框架

1594一种用于现实世界视觉对话导航的自激励通信AgentYiZhu2*，YueWeng1*，FengdaZhu3，XiaodanLiang1†，QixiangYe4，YutongLu1，JianbianJiao41中山大学2诺亚3莫纳什大学4中国科学院大学摘要视觉对话导航（VDN）...

"视觉和语言导航中候选航路点预测器的改进与性能评估

标签： RGBD观察结果航路点预测器弥合视觉和语言导航离散环境连续环境

15439？前进0.25米RGBD观察结果航路点预测器弥合视觉和...视觉和语言导航在离散与连续环境。(a)离散环境中的智能体依赖于连接图来导航全景高级动作，（b）但它们需要执行低级控制才能在连续空间中移动。（c，d）我们

结构编码辅助任务在视觉和语言导航中的应用

标签：结构编码辅助任务视觉和语言导航佐治亚理工学院马志尧摘要

gatech.edu马志尧[email protected]朱迪·霍夫曼佐治亚理工学院[email protected]乔治亚理工大学[email protected]摘要在视觉和语言导航（VLN）中，研究人员通常使用在ImageNet上预训练的图像编码器，而不对智能体将在其...

"多模态Transformer用于视觉和语言导航

标签： 1 交互与导航 3 训练改进 4 VLN任务 5 ALFRED基准

15942用于视觉和语言导航的Alexander Pashevich1*Cordelia Schmid2Chen Sun2，31 Inria2 Google Research3布朗大学摘要在动态环境中由自然语言指令定义的交互和导航对神经代理提出了重大本文重点讨论两个挑战：处理...

基于轨迹规划和目标位置线索的视觉和语言导航优先图

标签：视觉导航语言导航优先级图环境感知路线规划

uzh.ch英国剑桥大学[email protected]瑞士苏黎世大学[email protected]摘要在一条繁忙的城市街道上，一个被分心包围的行人可以挑选出一个单一的标志，如果它与他们的路线有关人工智能体在户外视觉语言导航中也面临着...

视觉语言导航综述Visual Language Navigation

视觉语言导航任务(Visual Language Navigation) 是让智能体跟着自然语言指令进行导航，这个任务需要同时理解自然语言指令与视角中可以看见的图像信息，然后在环境中对自身所处状态做出对应的动作，最终达到目标位置...

强化学习大牛Sergey Levine：将RL作为可扩展自监督学习的基础

标签：算法大数据编程语言

©作者 |杜伟、陈萍来源|机器之心目前，机器学习系统可以解决计算机视觉、语音识别和自然语言处理等诸多领域的一系列挑战性问题，但设计出媲美人类推理的灵活性和通用性的学习赋能（learn...

使用随机环境混合的视觉语言导航

标签：视觉语言导航随机环境混合数据偏差增强数据导航性能

16440使用随机环境混合的视觉语言导航0刘冲1,2* 朱丰达3* 常晓军4 梁晓丹5 葛宗源3 沈一东1†01 中国科学院软件研究所计算机科学国家重点实验室，中国 2 中国科学院大学，北京100049，中国 3莫纳什大学，...

大模型的元学习:快速适应新任务和新领域

标签：计算科学神经计算深度学习

1. 背景介绍 1.1. 大模型的兴起与挑战近年来，随着深度学习技术的快速发展，大模型（Large Language Models, LLMs）如 GPT-3、LaMDA 和 Jurassic-1 Jumbo 等在自然...这些模型拥有庞大的参数量和强大的学习能力，能

《预训练周刊》第11期：全球最大智能模型“悟道2.0”重磅发布、谷歌KELM：将知识图与语言模型预训练语料库...

标签：大数据编程语言 python

No.11智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第11期《预训练周刊》...

跨通道记忆网络解决视觉对话导航中的语言意图和历史导航动作问题

标签：视觉对话导航跨通道记忆 CMN模型语言记忆模块视觉记忆模块

并根据人类的反应进行导航视觉-对话导航除了要解决视觉语言导航所面临的共同挑战外，还需要处理好对话历史中一系列关于时间语境的问题的语言意图，以及对话和视觉场景的协同推理在本文中，我们提出了跨模态记忆网络...

融合零样本学习和小样本学习的弱监督学习方法综述

标签：算法目标检测人工智能

融合零样本学习和小样本学习的弱监督学习方法综述人工智能技术与咨询来源：《系统工程与电子技术》，作者潘崇煜等摘要:深度学习模型严重依赖于大量人工标注的数据，使得其在数据缺乏的特殊领域内应用严重...

51-27 DirveVLM：自动驾驶与大型视觉语言模型的融合

标签：人工智能计算机视觉自动驾驶

DriveVLM是一种新颖的自动驾驶系统，旨在针对场景理解挑战，利用最近的视觉语言模型VLM，在视觉理解和推理方面表现出非凡的优势。DriveVLM模型具有三个关键模块：场景描述、场景分析和分层规划。

监督学习、无监督学习、半监督学习、强化学习、自监督学习

「机器人圈」导览：一般说来，训练深度学习网络的方式主要有四种：监督、无监督、半监督和强化学习。在接下来的文章中，机器人圈将逐个解释这些方法背后所蕴含的理论知识。除此之外，机器人圈将分享文献中经常碰到的...

如何学习训练大模型——100条建议（附详细说明）

标签：学习人工智能深度学习

通过不断探索新方法、参与项目和保持热情，并将其应用于各种领域，从自然语言处理到计算机视觉和自动驾驶。通过不断学习、实践和探索，可以不断提升自己在深度学习领域的技能和洞察力，同时也能为社会和行业带来创新...

从CVPR 2021的论文看计算机视觉的现状

标签：大数据编程语言计算机视觉

作者丨Georgian来源丨DeepHub IMBA编辑丨极市平台导读本文根据今年的CVPR录用结果总结出了一些CV领域相关的发展现状。计算机视觉(Computer Vision, C...

强化学习泛化性综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

标签：论文阅读

论文阅读

一切皆是映射：深度学习在无人驾驶技术中的应用

标签：计算科学神经计算深度学习

1. 背景介绍 1.1 无人驾驶的崛起近年来,无人驾驶技术的发展如火如荼,吸引了全球科技巨头的投入。无人驾驶汽车有望彻底改变未来出行方式,提高交通效率,降低事故率,减少能源消耗和环境污染。然而,要实现真正的自动...